Modul 2: Einfache Lineare Regression

PI 6250 – Ökonometrie I

Max Heinze (mheinze@wu.ac.at)

Department für Volkswirtschaftslehre, WU Wien

Basierend auf einem Foliensatz von Simon Heß

6. März 2025

 

 

 

Motivation

Das bivariate lineare Modell

Ein Schätzer

Eigenschaften des OLS-Schätzers

Was haben diese Schlagzeilen gemeinsam?




Bedingte Erwartung von \(y\)

Die Aussagen auf der vorherigen Folie betreffen alle die bedingte Erwartung einer abhängigen Variable \(y\), gegeben eine erklärende Variable \(x\).

  • Manche Aussagen sind trotzdem Unsinn.
  • Wir werden lernen, zu zeigen, wieso.

Bedingte Erwartungen sind ein wichtiges Maß, das eine abhängige Variable \(y\) mit einer erklärenden Variable \(x\) in Relation setzt, zum Beispiel so:

\[ \mathrm{E}\left(\textcolor{var(--primary-color)}{y}\mid\textcolor{var(--secondary-color)}{x}\right) = 0.4 + 0.5\textcolor{var(--secondary-color)}{x} \]

Auf diese Weise können wir Variation in der abhängigen Variable \(y\) in zwei Komponenten unterteilen:

  • Variation, die von der erklärenden Variable \(x\) ausgeht, und
  • Variation, die zufällig entsteht oder von unbeobachteten Faktoren ausgeht.

Evaluierung von Politikmaßnahmen

Wenn wir bestimmte Maßnahmen evaluieren, sind wir oft daran interessiert, Unterschiede zwischen verschiedenen Gruppen zu verstehen.

Zwei Beispiele:

  • Effekte eines Medikaments auf die Gesundheit der Patient:innen in einer randomisierten Doppelblindstudie \[ \mathrm{E}\left(\textcolor{var(--primary-color)}{\mathrm{Gesundheit}}\mid\textcolor{var(--secondary-color)}{\mathrm{Medikament}=1}\right) - \mathrm{E}\left(\textcolor{var(--primary-color)}{\mathrm{Gesundheit}}\mid\textcolor{var(--secondary-color)}{\mathrm{Medikament}=0}\right) \]
  • Gender Pay Gap für ein bestimmtes Bildungsniveau \[ \mathrm{E}\left(\mathrm{log}(\textcolor{var(--primary-color)}{\mathrm{Lohn}})\mid\textcolor{var(--secondary-color)}{\mathrm{M\ddot{a}nnlich}=1},\dots\right) - \mathrm{E}\left(\mathrm{log}(\textcolor{var(--primary-color)}{\mathrm{Lohn}})\mid\textcolor{var(--secondary-color)}{\mathrm{M\ddot{a}nnlich}=0},\dots\right) \]

In beiden Fällen untersuchen wir den durchschnittlichen Behandlungseffekt (engl. average treatment effect, ATE): der durchschnittliche Effekt einer „Behandlung“ relativ zu keiner „Behandlung“.

Vorhersagen

Wir können auch daran interessiert sein, ein Ergebnis für eine bestimmte Ausgangssituation vorherzusagen.

Angenommen, wir kennen die Verteilung von Schulklassengröße und Prüfungsergebnissen. Für einen neuen Bezirk kannen wir nur die Klassengröße. Was ist die beste Vorhersage für die Prüfungsergebnisse im neuen Bezirk?

  • Der bedingte Mittelwert?
  • Der bedingte Median?
  • Der bedingte Modalwert?
  • Etwas anderes?

Wenn wir eine quadratische Verlustfunktion minimieren, wird unsere beste Vorhersage der bedingte Mittelwert sein.

 

 

Motivation

Das bivariate lineare Modell

Ein Schätzer

Eigenschaften des OLS-Schätzers

 

Bedingte Erwartungsfunktion

Wir wollen jetzt die Bedingte Erwartungsfunktion einer bestimmten Zufallsvariable \(y\) in Abhängigkeit von einer anderen Zufallsvariable \(x\) modellieren.

Der einfachste Weg, das zu tun: wir unterstellen eine lineare Funktion.

\[ \mathrm{E}(\textcolor{var(--primary-color)}{y_i}\mid\textcolor{var(--secondary-color)}{x_i}) = \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i}, \]

wobei

  • \(\beta_0\) und \(\beta_1\) Parameter der Funktion sind
  • \(i\) ein Index für Beobachtungen ist
  • \(\textcolor{var(--primary-color)}{y_i}\) die abhängige Variable, erklärte Variable, Outcome-Variable, der Regressand … ist, und
  • \(\textcolor{var(--secondary-color)}{x_i}\) die erklärende Variable, unabhängige Variable, der Regressor, … ist.

Bedingte Erwartungsfunktion

\[ \mathrm{E}(\textcolor{var(--primary-color)}{y_i}\mid\textcolor{var(--secondary-color)}{x_i}) = \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i}, \]

Diese Funktion gibt uns eine Information über den Erwartungswert von \(y_i\) für einen bestimmten Wert \(x_i\), und nur das.

  • Wir können nicht herauslesen, welchen Wert von \(y_i\) wir für ein bestimmtes \(x_i\) bekommen.
  • Wir bekommen auch keine Informationen über die Verteilung von \(y_i\) und \(x_i\) abseits des bedingten Erwartungswerts.

Angenommen, die bedingte Erwartungsfunktion für Prüfungsergebnisse gegeben eine bestimmte Klassengröße ist

\[ \mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungsergebnisse}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}) = 720 - 0.6 \times \textcolor{var(--secondary-color)}{\text{Klassengröße}_i}, \]

Bedingte Erwartungsfunktion

Angenommen, die bedingte Erwartungsfunktion für Prüfungsergebnisse gegeben eine bestimmte Klassengröße ist

\[ \mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungsergebnisse}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}) = 720 - 0.6 \times \textcolor{var(--secondary-color)}{\text{Klassengröße}_i}, \]

was können wir dann über die Prüfungsergebnisse in einem neuen Bezirk mit einer Klassengröße von 20 sagen?

  • Der Erwartungswert für die Prüfungsergebnisse ist 708 Punkte.
  • Die tatsächlichen Prüfungsergebnisse können darüber oder darunter liegen:
  • Es gibt einen gewissen Fehler, bzw. eine unbeobachtete Komponente.
  • Wir erwarten im Mittel einen Wert von 0 für diesen Fehlerterm (engl. error term): \(u_i := \textcolor{var(--primary-color)}{y_i}-\mathrm{E}(\textcolor{var(--primary-color)}{y_i}\mid\textcolor{var(--secondary-color)}{x_i}) = \textcolor{var(--primary-color)}{y_i}- \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i},\qquad\mathrm{E}(u_i\mid\textcolor{var(--secondary-color)}{x_i})=0.\)$
  • Außerdem nehmen wir an, dass sein Erwartungswert unabhänigig von \(x_i\) ist: \(\mathrm{E}(u_i\mid \textcolor{var(--secondary-color}{x_i})=\mathrm{E}(u_i)=0\) (engl. zero conditional mean assumption).

Visualisierung der bedingten Erwartungsfunktion

In blau sehen wir unsere bedingte Erwartungsfunktion. Für eine Klassengröße von 18 erwarten wir einen bestimmten Wert. Die tatsächlichen Werte sind um diesen Wert herum verteilt. Das trifft auf jeden Punkt entlang der Funktion zu.

Regressionsmodell in der Grundgesamtheit

Wir können unsere Überlegungen zur bedingen Erwartungsfunktion und zum Vorhersagefehler zusammenführen und erhalten ein lineares Regressionsmodell:

\[ \textcolor{var(--primary-color)}{y_i} = \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i} + \textcolor{var(--tertiary-color-semidark)}{u_i}, \]

wobei

  • \(\beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i}\) die Regressionsfunktion der Grundgesamtheit (engl. population regression function, PRF) ist,
  • \(\textcolor{var(--tertiary-color-semidark)}{u_i}\) der Vorhersagefehler bzw. Fehlerterm der Grundgesamtheit (engl. population prediction error bzw. error term) ist,
  • \(\beta_0\) der konstante Parameter (engl. intercept) ist, der den vorhergesagten Wert bei \(\textcolor{var(--secondary-color)}{x_i}=0\) abbildet, und
  • \(\beta_1\) der Steigungsparameter (engl. slope) ist, der den erwarteten Unterschied der vorhergesagten Werte für \(y_i\) bei einer Änderung von \(x_i\) um eine Einheit darstellt.

Regressionsmodell in der Grundgesamtheit

\[ \textcolor{var(--primary-color)}{y_i} = \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i} + \textcolor{var(--tertiary-color-semidark)}{u_i}, \]

In unserem Beispiel von vorher:

\[ \textcolor{var(--primary-color)}{\text{Prüfungsergebnisse}_i} = \beta_0 - \beta_1 \times \textcolor{var(--secondary-color)}{\text{Klassengröße}_i}+ \textcolor{var(--tertiary-color-semidark)}{u_i}. \]

In diesem Fall ist:

\[ \beta_1 = \frac{\mathrm{d}\:\mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungserg.}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengr.}_i})}{\mathrm{d}\:\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}} \]

der erwartete Unterschied in den Prüfungsergebnissen, wenn wir die durchschnittliche Klassengröße um eine Einheit variieren.

\[ \beta_0 = \mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungserg.}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengr.}_i}=0) \]

der erwartete Wert für das Prüfungsergebnis, wenn in einem Bezirk durchschnittlich 0 Schüler:innen in einer Klasse sind.

Skalierungseffekte

\[ \beta_1 = \frac{\mathrm{d}\:\mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungserg.}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengr.}_i})}{\mathrm{d}\:\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}} \]

\[ \beta_0 = \mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungserg.}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengr.}_i}=0) \]

Wie ändern sich diese beiden Parameter, wenn wir die Skalierung der Variablen ändern? Messen wir beispielsweise die Klassengröße in Zehnern:

\[ \textcolor{var(--primary-color)}{\text{Prüfungsergebnisse}_i} = \beta_0^{\bullet} - \beta_1^\bullet \times \frac{\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}}{10}+ \textcolor{var(--tertiary-color-semidark)}{u_i}. \]

Wir sehen:

\(\beta_0^{\bullet} = \beta_0\qquad\) und \(\qquad\beta_1^{\bullet} = \textcolor{var(--secondary-color)}{10\times}\beta_1\).

Die Regressionskonstante verändert sich nicht, der Steigungsparameter aber wird skaliert.

Übungsaufgabe

Was passiert, wenn wir die abhängige Variable (statt der unabhängigen Variable) skalieren?

Visualisierung der Skalierungseffekte

Auf dieser Folie skalieren wir die \(x_i\)-Werte in mehreren Schritten von Faktor 1 bis 2. Wir sehen, dass die Konstante unverändert bleibt, die Steigung sich aber ändert.

 

Motivation

Das bivariate lineare Modell

Ein Schätzer

Eigenschaften des OLS-Schätzers

 

 

Grundgesamtheit vs. Stichprobe

Nichts, was wir bisher besprochen haben, hatte mit tatsächlichen Daten zu tun.

  • Wir haben bisher Zusammenhänge in der Grundgesamtheit (engl. population) besprochen.
  • Das Regressionsmodell der Grundgesamtheit beschreibt einen hypothetischen Zusammenhang zwischen mehreren Variablen. Wir können uns vorstellen, dass die Daten von PRF und Fehlerterm generiert werden.
  • Wir kennen die Parameter \(\beta_0\) und \(\beta_1\) aus der PRF nicht.
  • Daher müssen wir die Parameter schätzen. Wir benötigen dafür Daten, also eine Stichprobe (engl. sample).
  • Wir werden im Folgenden Konzepte diskutieren, die sehr ähnlich zu denen aussehen, die wir vorher besprochen haben (z.B. eine Regressionsfunktion).
  • Daher in Erinnerung behalten: Es gibt eine Grundgesamtheit und einen Zusammenhang zwischen mehreren Variablen darin. Wir können diesen Zusammenhang aber nur im Rahmen einer Stichprobe schätzen.

Zufallsstichprobe

Wir haben vorher diskutiert, wie Schulklassengröße und Prüfungsergebnisse in der Grundgesamtheit miteinander verbunden sind. Wir können \(\beta_0\) und \(\beta_1\) aber in der Praxis nicht beobachten. Daher benötigen wir eine Stichprobe, um sie schätzen zu können.


Wir sammeln also Daten:

\(\left.\begin{array}{c}\{y_1, x_1\} \\\{y_2, x_2\} \\\{y_3, x_3\} \\\vdots \\\{y_n, x_n\}\end{array}\right\}\quad\{y_i, x_i\}_{i=1}^{N}\quad\) zufällig gezogen aus einer Grundgesamtheit \(\quad F_{y,x}(\cdot,\cdot)\),


für die wir \(\mathrm{E}(y\mid x)\) mithilfe einer linearen bedingten Erwartungsfunktion approximieren wollen.

Zufallsstichprobe

Wie sieht eine Zufallsstichprobe in unserem Beispiel von vorher aus?

Wir bereiten zuerst den Datensatz wieder auf.

Zufallsstichprobe

Wie sieht eine Zufallsstichprobe in unserem Beispiel von vorher aus?

Wir sehen hier fixe Zahlen. Allerdings sind diese Zahlen Realisierungen von Zufallsvariablen, und jedes Mal, wenn wir eine neue Zufallsstichprobe ziehen, werden wir andere Werte erhalten.

Zufallsstichprobe

Ziehen wir zur Veranschaulichung eine Stichprobe aus einer Standard-Normalverteilung und berechnen den Mittelwert.

Wenn wir diese Berechnung mehrmals durchführen, bekommen wir immer einen Mittelwert, der in der Nähe von 0 liegt, aber wir bekommen jedes Mal einen anderen Wert. Je mehr Beobachtungen wir sammeln (z.B. n=10^6), desto näher werden die meisten dieser Werte an 0 liegen.

Wir suchen einen Schätzer

Wir wollen eine Regressionslinie mit Konstanter \(\tilde{\beta}_0\) und Steigung \(\tilde{\beta}_1\) anpassen:

\[ y_i = \textcolor{var(--quarternary-color)}{\tilde{\beta}_0} + \textcolor{var(--quarternary-color)}{\tilde{\beta}_1}x_i, \]

die die folgenden Vorhersagefehler minimiert:

\[ \textcolor{var(--quarternary-color)}{\hat{u}_i} = y_i - \textcolor{var(--quarternary-color)}{\tilde{\beta}_0} + \textcolor{var(--quarternary-color)}{\tilde{\beta}_1}x_i. \]

  • \(\hat{u}_i\) ist das Residuum (engl. residual), und ist nicht dasselbe wie der Fehlerterm.
    • Das Residuum ist der Unterschied zwischen unserer angepassten Regressionslinie und dem tatsächlich beobachteten Wert \(y_i\).
    • Der Fehlerterm ist die zufällige oder unbeobachtete Komponente aus dem datengenerierenden Prozess der Grundgesamtheit.
  • \(\tilde{\beta}_0\) und \(\tilde{\beta}_1\) sind unsere angepassten Koeffizienten für Konstante und Steigung, und sind nicht dasselbe wie die Parameter \(\beta_0\) und \(\beta_1\) aus der Grundgesamtheit.

OLS-Schätzer

Wie finden wir unter allen \(\tilde{\beta}_0\) und \(\tilde{\beta}_1\) diejenigen Parameter \(\hat{\beta}_0\) und \(\hat{\beta}_1\), die den Vorhersagefehler minimieren?

Vorschlag: Wir nehmen die Summe aller Residuen.

  • Macht das Sinn? Nein.
  • Positive und negative Residuen würden einander aufheben.

Besserer Vorschlag: Wir nehmen die Summe aller Quadrate der Residuen. So bestrafen wir positive und negative Residuen gleichermaßen. Wir suchen also das Minimum von:

\[ S(\tilde{\beta}_0,\tilde{\beta}_1)=\sum_{i=1}^N \left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)^2. \]

Wir nennen den resultierenden Schätzer Kleinste-Quadrate-Schätzer (engl. least squares estimator) bzw. Gewöhnlicher Kleinste-Quadrate-Schätzer (engl. ordinary least squares, OLS).

OLS-Schätzer (Quadrate minimieren)

\[ S(\tilde{\beta}_0,\tilde{\beta}_1)=\sum_{i=1}^N \left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)^2. \]

Wir beginnen damit, die Funktion nach \(\tilde{\beta}_0\) abzuleiten und die Ableitung gleich Null zu setzen:

\[ \frac{\partial S}{\partial \tilde{\beta}_0}=-2\sum_{i=1}^N\left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)=0, \]

Das gibt uns

\[ \colorbox{var(--primary-color-lightened)}{$\sum_{i=1}^N y_i=n\tilde{\beta}_0+\tilde{\beta}_1\sum_{i=1}^N x_i.$} \]

OLS-Schätzer (Quadrate minimieren)

Als nächstes leiten wir nach \(\tilde{\beta}_1\) ab:

\[ \frac{\partial S}{\partial \tilde{\beta}_1}=-2\sum_{i=1}^N x_i\left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)=0, \]

Wir erhalten

\[ \colorbox{var(--secondary-color-lightened)}{$\sum_{i=1}^N x_i y_i=\tilde{\beta}_0\sum_{i=1}^N x_i+\tilde{\beta}_1\sum_{i=1}^N x_i^2.$} \]

OLS-Schätzer (Quadrate minimieren)

Wir notieren ab jetzt \(\bar{x}=\frac{1}{n}\sum_{i=1}^N x_i\) und \(\bar{y}=\frac{1}{n}\sum_{i=1}^N y_i\). Dann erhalten wir aus der ersten Bedingung erster Ordnung:

\[ \tilde{\beta}_0=\bar{y}-\tilde{\beta}_1\bar{x}. \]

Wenn wir das in die zweite Bedingung erster Ordnung einsetzen, erhalten wir:

\[ \sum^N_{i=1}x_i\left(y_i-\bar{y}\right)=\tilde{\beta}_1\sum^N_{i=1}x_i\left(x_i-\bar{x}\right). \]

OLS-Schätzer (Quadrate minimieren)

Weil \(\sum^N_{i=1}x_i\left(x_i-\bar{x}\right)=\sum^N_{i=1}\left(x_i-\bar{x}\right)^2\) und \(\sum^N_{i=1}x_i\left(y_i-\bar{y}\right)=\sum^N_{i=1}\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)\) (Siehe Appendix A-1 in Wooldridge):

\[ \colorbox{#e0e0e0}{$\hat{\beta}_1=\frac{\sum_{i=1}^N (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^N (x_i-\bar{x})^2},$} = \textcolor{#999999}{\frac{\widehat{\mathrm{Cov}}(x_i,y_i)}{\widehat{\mathrm{Var}}(x_i)}} \]

solange \(\sum_{i=1}^N (x_i-\bar{x})^2>0\).

Und von vorher:

\[ \colorbox{#e0e0e0}{$\hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}.$} \]

Diese Schätzer minimieren die Summe der Residuenquadrate.

OLS-Schätzer (Momentenmethode)

Alternativ können wir die Schätzer über die Momentenmethode (engl. method of moments) herleiten. Wir können dabei die folgenden (vorher besprochenen) Annahmen als Momentenbedingungen (engl. moment conditions) verwenden:

  • \(\mathrm{E}(u_i)=0\) (sonst wäre die Linie einfach zu weit unten/oben)
  • \(\mathrm{Cov}(x_i,u_i)=\mathrm{E}(x_iu_i) = 0\) (sonst wäre die Linie schief)

Als ersten Schritt ersetzen wir die Momente der Grundgesamtheit durh die Stichprobenmomente:

\[ \frac{1}{n} \sum_{i=1}^{n} x_i (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0 \]

\[ \frac{1}{n} \sum_{i=1}^{n} y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i = 0 \]

OLS-Schätzer (Momentenmethode)

\[ \frac{1}{n} \sum_{i=1}^{n} x_i (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0 \]

\[ \frac{1}{n} \sum_{i=1}^{n} y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i = 0 \]

Diese Ausdrücke sind äquivalent zu denen, die wir durch Ableiten der Verlustfunktion erhalten haben. Insofern können wir genau so fortsetzen wie vorher und erhalten:

\[ \colorbox{#e0e0e0}{$\hat{\beta}_1=\frac{\sum_{i=1}^N (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^N (x_i-\bar{x})^2}$}\qquad\qquad\colorbox{#e0e0e0}{$\hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}.$} \]

Wir haben denselben Schätzer durch zwei verschiedene Methoden erhalten.

Motivation

Das bivariate lineare Modell

Ein Schätzer

Eigenschaften des OLS-Schätzers